GitHub Repository: debakarr/machinelearning
Path: blob/master/Part 1 - Data Preprocessing/[R] Data Preprocessing.ipynb
¹³³³ views

Kernel: R

Data Preprocessing

Import the dataset

In [1]:

dataset = read.csv('Data.csv')

In [2]:

dataset # Unlike python indexing starts with 1 in R

Out[2]:

Taking care of missing data

In [7]:

dataset$Age = ifelse(is.na(dataset$Age), 
                     ave(dataset$Age, FUN = function(x) mean(x, na.rm = TRUE)), 
                         dataset$Age)
dataset$Salary = ifelse(is.na(dataset$Salary), 
                        ave(dataset$Salary, FUN = function(x) mean(x, na.rm = TRUE)), 
                            dataset$Salary)

In [8]:

dataset

Out[8]:

Encoding categorical data

In [10]:

dataset$Country = factor(dataset$Country, 
                         levels = c('France', 'Spain', 'Germany'),
                         labels = c(1, 2, 3))

In [11]:

dataset

Out[11]:

In [12]:

dataset$Purchased = factor(dataset$Purchased, 
                         levels = c('No', 'Yes'),
                         labels = c(0, 1))

In [13]:

dataset

Out[13]:

Splitting the dataset into the Training set and Test set

In [15]:

# install.packages('caTools')

In [16]:

library(caTools)

In [18]:

set.seed(42)
split = sample.split(dataset$Purchased, SplitRatio = 0.8)

In [19]:

split # TRUE = Training set, FALSE = Test set

Out[19]:

In [20]:

training_set = subset(dataset, split == TRUE)
test_set = subset(dataset, split == FALSE)

In [21]:

training_set

Out[21]:

In [31]:

dim(training_set)[1]

Out[31]:

In [22]:

test_set

Out[22]:

In [32]:

dim(test_set)[1]

Out[32]:

Feature Scaling

In [26]:

training_set = scale(training_set)
test_set = scale(test_set)

Out[26]:

Error in colMeans(x, na.rm = TRUE): 'x' must be numeric
Traceback:
1. scale(training_set)
2. scale.default(training_set)
3. colMeans(x, na.rm = TRUE)

In [27]:

training_set[, 2:3] = scale(training_set[, 2:3])
test_set[, 2:3] = scale(test_set[, 2:3])

In [28]:

training_set

Out[28]:

In [29]:

test_set

Out[29]:

In [ ]:

Data Preprocessing

Import the dataset

Taking care of missing data

Encoding categorical data

Splitting the dataset into the Training set and Test set

Feature Scaling

Product

Resources

Company